阿里开源多模态视频生成模型通义万相Wan2.2-S2V 该模型仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。 视频 模型 模态 开源 模型通义 2025-08-26 22:09 2